Národní úložiště šedé literatury Nalezeno 14 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.02 vteřin. 
Rozpoznávání pojmenovaných entit
Rylko, Vojtěch ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce)
V této práci je načrtnuta historie a jsou představena teoretická východiska rozpoznávání pojmenovaných entit, na jejichž základě je implementován systém v jazyce C++ pro detekci a zjednoznačňování pojmenovaných entit.  Systém používá lokální metodu zjednoznačňování a pracuje se statistikami vytvořenými z rozsáhlých webových dat Wikilinks. S vyvinutým systémem jsou prováděny experimenty a je srovnáván s alternativními implementacemi. Experimenty prokazují dostatečnou úspěšnost a rychlost systému. Systém se účastní soutěže  Entity Recognition and Disambiguation Challenge 2014.
Klasifikace vztahů mezi pojmenovanými entitami v textu
Ondřej, Karel ; Doležal, Jan (oponent) ; Smrž, Pavel (vedoucí práce)
Tato diplomová práce se zabývá extrakcí vztahů mezi pojmenovanými entitami v textu. V teoretické části práce je rozebrána problematika reprezentace přirozeného jazyka pro strojové zpracování. Následně jsou definovány dvě dílčí úlohy extrakce vztahů, a to rozpoznávání pojmenovaných entit a klasifikace vztahu mezi nimi, včetně shrnutí dnešních nejmodernějších řešení. V praktické části práce je navržen systém pro automatickou extrakci vztahů mezi pojmenovanými entitami ze stažených webových stránek. Model pro klasifikaci vztahů mezi entitami je založen na předtrénovaném modelu sítě typu transfomers. V práci jsou porovnány čtyři předtrénované modely, a to BERT, XLNet, RoBERTa a ALBERT.
Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku
Jarolím, Jordán ; Bartík, Vladimír (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato práce se zabývá získáváním relevantních informací z dokumentů, automatizovaným rozdělováním vícero dokumentů spojených do jednoho celku a tvorbou nástroje, který umožňuje získání relevantních informací z dokumentů a jejich automatizované rozdělení. Jsou diskutovány především metody pro získání textových dat ze skenovaných dokumentů, rozpoznávání pojmenovaných entit, shlukování dokumentů, jejich podpůrné algoritmy a jsou popisovány metriky sloužící pro automatizované rozdělování dokumentů. Dále je vysvětlen algoritmus implementovaného prototypu daného systému, jsou popsány použité nástroje a techniky a je evaluována jeho úspěšnost. Nakonec jsou diskutována možná rozšíření a budoucí rozvoj této práce.
Document Information Extraction
Janík, Roman ; Špaňhel, Jakub (oponent) ; Hradiš, Michal (vedoucí práce)
With development of digitization comes the need for historical document analysis. Named Entity Recognition is an important task for Information extraction and Data mining. The goal of this thesis is to develop a system for extraction of information from Czech historical documents, such as newspapers, chronicles and registry books. An information extraction system was designed, the input of which is scanned historical documents processed by the OCR algorithm. The system is based on a modified RoBERTa model. The extraction of information from Czech historical documents brings challenges in the form of the need for a suitable corpus for historical Czech. The corpora Czech Named Entity Corpus (CNEC) and Czech Historical Named Entity Corpus (CHNEC) were used to train the system, together with my own created corpus. The system achieves 88.85 F1 score on CNEC and 87.19 F1 score on CHNEC, obtaining new state-of-the-art results.
Metody klasifikace textu v kontextu webových stránek
Trstenský, Patrik ; Bartík, Vladimír (oponent) ; Burget, Radek (vedoucí práce)
Tato práce se zabývá problematikou klasifikací textu v kontextu webových stránek. Zkoumá dostupné metody klasifikace a jejich přesnost nad čistým textem z webové stránky. Zabývá se sestrojením datasetu pro trénování těchto metod pro konkrétní doménu. Data pro vytvoření datasetu získáváme z veřejně dostupných stránek, které využívají RDF dokumentů zadefinovaných v HTML kódu. Závěr práce sestává z vytvoření dvou datasetů pro dvě různé domény, dále z využití těchto datasetů na trénování modelů a následného testování jejich přesnosti.
Automatic Webpage Content Categorisation and Extraction
Rein, Michal ; Koutenský, Michal (oponent) ; Dolejška, Daniel (vedoucí práce)
This thesis describes the development of a flexible system for automatically categorising and extracting content from web pages, with a focus on the darknet environment. We have designed a highly adaptable and scalable system capable of handling any type of content, while taking great care in considering the overall architecture, database structure, and processing pipeline. Using the state-of-the-art language model trained on the natural language inference task, we demonstrate the model's potential to categorise content effectively in a zero-shot environment. We also conduct an analysis of the performance of various hypothesis templates. To further enhance the data extraction process, we have integrated a named entity recognition model and templating methodology for content extraction and proposed an automated segmentation approach using OpenAI's ChatGPT model. In addition, we have developed a user-friendly web client application to enhance the system's accessibility and ease-of-use, evaluated the achieved results, and identified areas for further research and development in this field.
Neural Network Based Named Entity Recognition
Straková, Jana ; Hajič, Jan (vedoucí práce) ; Černocký, Jan (oponent) ; Konopík, Miloslav (oponent)
Název práce: Rozpoznávání pojmenovaných entit pomocí neuronových sítí Autor: Jana Straková Ústav: Ústav formální a aplikované lingvistiky Vedoucí doktorské práce: prof. RNDr. Jan Hajič, Dr., Ústav formální a apliko- vané lingvistiky Abstrakt: Obor rozpoznávání pojmenovaných entit v češtině (tj. úkol auto- maticky identifikovat a klasifikovat významné části textu, jako například jména lidí, míst a organizací) se významně rozvinul po vydání českého korpusu poj- menovaných entit, Czech Named Entity Corpus (CNEC). Tato doktorská práce předkládá autorské výsledky v oblasti rozpoznávání pojmenovaných entit, ze- jména v češtině. Publikuje práci a výzkum provedený v průběhu přípravy CNEC a později během jeho evaluace. Dále shrnuje autorské výsledky, které před- stavují nejlepší známé výsledky v rozpoznávání českých pojmenovaných entit. Na základě jednoduché neuronové sítě s výstupní funkcí softmax a standardní sadou klasifikačních rysů je popsána metodologie a výsledky, ze kterých později vznikl otevřený software pro rozpoznávání pojmenovaných entit, NameTag. Dok- torská práce je zakončena popisem rozpoznávače založeném na rekurentních neu- ronových sítích s embeddingy slov a embeddingy založenými na znacích, které představují výsledky současného výzkumu v oblasti neuronových sítí. Rozpozná- vač nevyžaduje tvorbu...
Klasifikace vztahů mezi pojmenovanými entitami v textu
Ondřej, Karel ; Doležal, Jan (oponent) ; Smrž, Pavel (vedoucí práce)
Tato diplomová práce se zabývá extrakcí vztahů mezi pojmenovanými entitami v textu. V teoretické části práce je rozebrána problematika reprezentace přirozeného jazyka pro strojové zpracování. Následně jsou definovány dvě dílčí úlohy extrakce vztahů, a to rozpoznávání pojmenovaných entit a klasifikace vztahu mezi nimi, včetně shrnutí dnešních nejmodernějších řešení. V praktické části práce je navržen systém pro automatickou extrakci vztahů mezi pojmenovanými entitami ze stažených webových stránek. Model pro klasifikaci vztahů mezi entitami je založen na předtrénovaném modelu sítě typu transfomers. V práci jsou porovnány čtyři předtrénované modely, a to BERT, XLNet, RoBERTa a ALBERT.
Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku
Jarolím, Jordán ; Bartík, Vladimír (oponent) ; Kreslíková, Jitka (vedoucí práce)
Tato práce se zabývá získáváním relevantních informací z dokumentů, automatizovaným rozdělováním vícero dokumentů spojených do jednoho celku a tvorbou nástroje, který umožňuje získání relevantních informací z dokumentů a jejich automatizované rozdělení. Jsou diskutovány především metody pro získání textových dat ze skenovaných dokumentů, rozpoznávání pojmenovaných entit, shlukování dokumentů, jejich podpůrné algoritmy a jsou popisovány metriky sloužící pro automatizované rozdělování dokumentů. Dále je vysvětlen algoritmus implementovaného prototypu daného systému, jsou popsány použité nástroje a techniky a je evaluována jeho úspěšnost. Nakonec jsou diskutována možná rozšíření a budoucí rozvoj této práce.
Neural Network Based Named Entity Recognition
Straková, Jana ; Hajič, Jan (vedoucí práce) ; Černocký, Jan (oponent) ; Konopík, Miloslav (oponent)
Název práce: Rozpoznávání pojmenovaných entit pomocí neuronových sítí Autor: Jana Straková Ústav: Ústav formální a aplikované lingvistiky Vedoucí doktorské práce: prof. RNDr. Jan Hajič, Dr., Ústav formální a apliko- vané lingvistiky Abstrakt: Obor rozpoznávání pojmenovaných entit v češtině (tj. úkol auto- maticky identifikovat a klasifikovat významné části textu, jako například jména lidí, míst a organizací) se významně rozvinul po vydání českého korpusu poj- menovaných entit, Czech Named Entity Corpus (CNEC). Tato doktorská práce předkládá autorské výsledky v oblasti rozpoznávání pojmenovaných entit, ze- jména v češtině. Publikuje práci a výzkum provedený v průběhu přípravy CNEC a později během jeho evaluace. Dále shrnuje autorské výsledky, které před- stavují nejlepší známé výsledky v rozpoznávání českých pojmenovaných entit. Na základě jednoduché neuronové sítě s výstupní funkcí softmax a standardní sadou klasifikačních rysů je popsána metodologie a výsledky, ze kterých později vznikl otevřený software pro rozpoznávání pojmenovaných entit, NameTag. Dok- torská práce je zakončena popisem rozpoznávače založeném na rekurentních neu- ronových sítích s embeddingy slov a embeddingy založenými na znacích, které představují výsledky současného výzkumu v oblasti neuronových sítí. Rozpozná- vač nevyžaduje tvorbu...

Národní úložiště šedé literatury : Nalezeno 14 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.